iT邦幫忙

2024 iThome 鐵人賽

DAY 29
0
Python

自主學習Python網路爬蟲-PTT爬蟲、Hahow爬蟲、Yahoo電影爬蟲實作系列 第 29

Day29 藉由影片學習Python網路爬蟲-PTT爬蟲、Hahow爬蟲、Yahoo電影爬蟲實作

  • 分享至 

  • xImage
  •  

今天要分享的是Hahow爬蟲-學會如何爬取Ajax網頁
Ajax網頁流程如下:
使用者端訪問Hahow網站 => 伺服器端回傳空的HTML(無資料) => 使用者端透過JavaScript發送Ajax請求 => 伺服器端回傳資料,JavaScript用此資料渲染畫面
首先先在Hahow網站找到要爬取的課程資料 => 點擊右鍵找到開發者工具 => Network => Fetch/XHR => 開始逐一尋找API => Preview => data => courseData => products...
https://ithelp.ithome.com.tw/upload/images/20241016/2016778718RRSBrdpA.jpg
開新分頁,貼上複製的網址會跑出以下亂碼,後複製亂碼
https://ithelp.ithome.com.tw/upload/images/20241016/20167787Z8aNfvX8BI.png
在新分頁查詢"JSON Formatter"後把複製後的亂碼貼上並點擊Process
https://ithelp.ithome.com.tw/upload/images/20241016/20167787aoRFH2QztO.png
後會整理出以下畫面,可以點選全螢幕觀看整個JSON檔
https://ithelp.ithome.com.tw/upload/images/20241016/20167787SUJ3Hclr7n.png
接下來是在pycharm中撰寫程式碼爬取網頁資料,程式碼如下
https://ithelp.ithome.com.tw/upload/images/20241016/20167787pWQkpsYCx6.png
https://ithelp.ithome.com.tw/upload/images/20241016/20167787fqaLGqijyG.png
執行結果如圖(Excel檔)
https://ithelp.ithome.com.tw/upload/images/20241016/20167787dXPP6bHoTO.png


以上是我今天的分享,明天是挑戰的第30天!會分享Yahoo電影爬蟲以及這30天的心得,謝謝大家!
參考網址:https://www.youtube.com/watch?v=1PHp1prsxIM&list=LL&index=5


上一篇
Day28 藉由影片學習Python網路爬蟲-PTT爬蟲、Hahow爬蟲、Yahoo電影爬蟲實作
下一篇
Day30 藉由影片學習Python網路爬蟲-Yahoo電影爬蟲實作與心得總結
系列文
自主學習Python網路爬蟲-PTT爬蟲、Hahow爬蟲、Yahoo電影爬蟲實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言